DAY17 - SeamlessM4T中的T2U Encoder 及 Unit Decoder - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 17

0

AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列第 17 篇

DAY17 - SeamlessM4T中的T2U Encoder 及 Unit Decoder

15th鐵人賽 seamlessm4t

2023-10-02 08:45:32

607 瀏覽

分享至

SeamlessM4T在Text decoder產生文本後已達成三種任務的功能，包含S2TT、T2TT、ASR。若需要轉成語音輸出就再送進後級的T2U(Text-to-Unit)編碼器。它的T2U編碼器可將文本轉換為36種語言的語音單元，而後再送進Unit Decoder轉換為離散序列送進後級Vocoder生成語音輸出。

T2U encoder 及 Second-pass unit decoder

T2U(Text-to-Unit) encoder作為文本及語音單元解碼器之間的橋樑，且這轉換不需要改變序列長度。第二階段語音單元解碼器，透過T2U encoder的輸出結果生成離散序列單元(Unit)。只要單元生成，就可以送入後級Vocoder，將離散的語音單元轉為聲波訊號。

在整個UnitY模型的推理過程中，MetaAI執行了兩次解碼。第一次是在Text Decoder找到最有可能的文本。然後送到T2U編碼器，生成最可能的離散語音單元(Unit)。最後將單元輸入到基於單元的聲碼器來生成聲波波形。

透過增加層數，MetaAI在第一階段文本解碼器分配更多的模型容量，高於第二階段的單元解碼器，這樣的做法他們稱為“深淺二階段解碼器”，來提高翻譯品質和推理。

總結

T2U模型作為文本及語音單元的橋樑，有了文本輸出結果後，作為後續二階段語音處理的輸入。其中MetaAI在第一階段文本解碼器分配更多的模型容量，高於第二階段的單元解碼器，這樣的做法他們稱為“深淺二階段解碼器”，來提高翻譯品質和推理。

DAY16 - SeamlessM4T中的Text Decoder

DAY18 - SeamlessM4T程式碼中的Vocoder

系列文

利用SeamlessM4T學習語音辨識架構及應用共 30 篇

目錄

RSS系列文訂閱系列文

3 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙